以高通量测序技术为基础的生物大数据和序列分析技术正在推动生命科学领域的技术革命,生物医药领域产生的海量数据正以每12~18个月10倍以上的速度增长,已远远超过著名的摩尔定律。
生命医药大数据的分析和计算需要在保持高精准度的前提下,尽可能地提高时效性和样本数[2]。这些数据只有经过精确的分析、挖掘和计算才能发挥巨大的作用并应用到人类健康产业中,例如肿瘤基因检测、个性化医疗、单基因病快速筛查、产前基因筛查与检测、未知病毒入侵和药物设计、公共卫生应急响应等。“天河”系列超级计算机作为世界上最大规模的异构并行计算系统平台之一,在设计之初就考虑到了科学工程计算、大数据处理和高安全信息服务等应用形态,并且已经在生物医药大数据等领域发挥了巨大作用。由于笔者参加了相关研究工作,所以对基于天河超级计算机进行的生物医药大数据研究工作做一介绍。
基因工程——人类全基因组重测序软件流水线
人类全基因组重测序是一个复杂繁琐的过程,测序完成后其分析流水线涉及的软件有几十个。经过性能分析和比较发现,序列比对、SNP1变异检测、基因组装等应用软件占了整个流程90%以上的运行时间,而且这些应用的功能和产生的关键数据在整个分析过程中也占有举足轻重的地位,有必要对这些应用软件进行新的大规模算法设计和深度并行优化。为了全面加速整个基因大数据软件流水线的运转,我们针对上述软件进行了算法设计和深度并行优化。2014年,国防科技大学计算机学院软件所联合华大基因公司,在“天河二号”上成功设计、研发了一条“人类全基因组重测序软件流水线”。
针对序列比对软件,我们将它移植到MIC2卡上,充分利用MIC卡512位宽向量处理单元对“比对过程”进行了加速,并采用流水线、预取等技术,实现了CPU/MIC协同工作。针对SNP变异检测软件,我们不仅采用了四维矩阵压缩降维、去冗计算、一致性梯度排序等方法对算法进行了重新设计,而且实现了跨节点的多级并行、CPU/MIC微异构协同并行以及面向CPU和MIC向量处理单元的深度向量化。我们从算法层面和大规模异构协同并行角度对软件进行了全方位的优化,所采用的系列算法思想和并行加速优化策略适用于不同数据规模和各类多核计算平台,方法具有好的可移植性和可扩展性。
该流水线可以在4小时内完成2000个人(30X, 300TB)的全基因组重测序数据分析,获得了1200倍的加速比,并行效率保持在60%以上。相关研究成果获得美国电气与电子工程师协会“可扩展计算挑战赛”2015决赛奖(IEEE International Scalable Computing Challenge, SCALE 2015—Finalist Awards)和2014年全国并行应用挑战赛(PAC 2014)金奖第一名,该成果在个体化医疗(癌症、埃博拉病毒、艾滋病、白血病等)、群体遗传学研究、关联分析、进化分析等诸多领域有着广泛的应用。相关论文和研究成果发表在国际超算大会ISC 2015、《自然》子刊、《细胞》子刊等会议和刊物上,软件工具的总下载量已经超过一万次。
基因大数据——Hadoop和Spark加速基因大数据挖掘
随着测序技术的发展,测序通量越来越高,单碱基成本下降速度超越了摩尔定律,推动了越来越多的生物数据产出,生命科学的发展也由传统的观测实验开始转向数据驱动的科学。首先,在市场应用领域,近几年如无创产前检测、肿瘤筛查等基因检测技术逐渐得到实际应用,产生了大量的数据。据不完全统计,仅仅华大基因一家的一项无创产前检测样品数就已经将近百万。而临床检测要求从测序到出报告的整个过程尽量快,其中快速的生物数据计算也是很重要的一部分。其次,在基因研究领域,如英国十万人基因组计划的超大样本量的基因组研究也开始展开,其样本数是之前千人基因组计划的数十倍,假设一个人的全基因组数据有100GB(30~40X左右深度的人类基因组),仅仅基因组数据就有10PB3,而分析这些数据需要大量的计算资源,其中一个人的基因组比对和变异检测的过程在传统环境中计算就需要好几天。这些都对计算的性能和整体能力有较高的要求。生物数据的“大”不仅仅体现在数据量和计算量上,还体现在数据维度等方面,如在肠道微生物基因组(宏基因组)的研究中,往往涉及到千万级别基因向量的聚类问题,需要调用机器学习算法来计算大规模和高维度的生物数据。综上所述,生物大数据已经是大数据领域里的典型场景,一个强大的生物大数据分析平台是解决这一问题的必备条件。
Hadoop和Spark是大数据领域受关注度比较高的解决方案,目前天河上已经部署了Hadoop和Spark集群,为大数据计算和分析提供环境。
早在2012年,华大基因研究院天津分院就将生产和科研的计算存储环境部署到国家超级计算天津中心的“天河一号”上,对百万级以上的检测和科研样品进行了数据分析。同时部署了基于Hadoop的分布式重测序分析软件SOAPgaea,能够快速地进行生物信息中的比对和变异检测分析。相比单机程序,20个节点的加速比达到17倍,大大加快了对孕前检测、肿瘤筛查等样本的分析速度。期间,华大基因采用Hadoop将GPU程序和数据调度到GPU节点上进行并行计算,完成了宏基因组中的1000*9.9M 的聚类问题。
随着国家超级计算广州中心(简称广州超算)“天河二号”的大范围使用,华大基因正同广州超算一起进一步解决生物大数据问题。华大基因在广州超算上进行的SOAPgaea测试,获得了相比华大基因传统集群2倍的加速,其中一个Spark版本的程序模块,获得了近5倍的效果提升。虽然数十万数据的联合群体频率计算是个比较大的计算难题,单机程序无法承受,又由于涉及比较复杂的统计计算,包含高次方程的求解,计算量非常大,但是,华大基因正在同国防科学技术大学和广州超算一起积极解决这个问题。另外,聚类问题也变得更加棘手,华大基因联合国防科大的研究人员正在考虑如何基于“天河二号”进一步提高Hadoop和Spark对基因大数据挖掘的速度。
药物大数据与药物研发——大规模虚拟药物筛选平台
从上世纪80年代开始,为了预测药物-蛋白质相互作用结构和结合亲和力,我们专门研发了一种称为“分子对接”的计算模拟方法(也称为“高通量虚拟药物筛选”)。由这一方法延伸出根据靶标结构从现有化合物库中搜寻活性化合物的虚拟筛选方法,在新药发现中得到了广泛应用,现在已经成为药物发现的核心工具之一,这也是未来药物研发的重要方向。到目前为止,已经有商业化合物分子3000多万个,药物靶标2000多个。如果用高通量筛选方法来做,针对一个靶标每天筛选20万个化合物,每个化合物每次筛选需要1美元,将需要822年、花费600亿美元来完成2000个靶标的筛选。这是一个非常大的工程,没有一家研究机构和制药公司有这样的实力开展这样的实验工作。而通过虚拟筛选的方式,则能够以较小的花费来加快这个流程。
如果1个核10秒钟可以虚拟筛选1个化合物,那么针对1个靶标筛完3000万个化合物需要9.5年;如果用100个核并行虚拟筛选,并行效率为100%,35天就可以完成。因此,分子对接软件的大规模并行化就成为现代药物研发的必然选择[2,4],尤其在进行大规模爆发性急性传染病(如埃博拉病毒、寨卡病毒)药物研发的时刻。如果进行大规模的并行化虚拟筛选,则有可能从现有药物中迅速找出用于治疗这些急性传染病的药物,还可以作为先导化合物为新一代药物的研发提供基础。
为了提高虚拟筛选的成功率,中科院上海药物研究所研究人员发展了新型的分子对接打分函数[4,5],将其整合到分子对接软件D3DOCKxb中,可正确识别含有卤素结构的分子并对其打分。该打分函数包含卤键作用,这是一种常见的药物-靶标作用,但目前大多数的分子对接软件对这种作用情况都不能正确处理。为了适应“天河二号”的微异构体系架构,中科院上海药物所蒋华良课题组、朱维良课题组与国防科大计算机学院软件研究所于2015年成功研发了一款大规模并行药物虚拟筛选软件——mD3DOCKxb,首次提出了CPU/MIC协同、多级并行的大规模分子对接算法,设计了高效的通信引擎,该引擎包含基于动态任务划分的负载均衡策略和大规模并发通信、I/O冲突消解策略。在“天河二号”单节点上,mD3DOCKxb可获得50倍以上的加速比;在8000节点上,即使用192000CPU核和1368000MIC核时,mD3DOCKxb也取得了84.7%的并行效率,具有良好的可扩展性。经过在“天河二号”上的大规模部署,mD3DOCKxb在24小时内完成了4200万化合物分子(约700TB)与埃博拉病毒蛋白VP35的对接,并获得了ZINC03870993_0等一批药物分子。在“天河二号”上,mD3DOCKxb可以在一天之内完成地球上所有可用化合物分子的粗略虚拟筛选,为应对爆发性恶性传染病提供了强大的计算模拟保障,降低了药物和疫苗研制成本,缩短了研制周期。
该成果获得2015年全国并行应用挑战赛(PAC 2015)金奖。
肿瘤信息学数据分析平台
通常,医学研究肿瘤样本的源数据是从测序仪产生的短序列的信息集合(rawdata),这些源数据都需要经过基本分析才能转换成可以用于分析比较的数字信号。基本分析的过程包括质量控制、参考基因组比对、表达定量、转录本拼接、变异检测等。通过计算比较发现,现有的分析工具软件多适用于小批量样本的分析处理,效率较低;在分析流程的研究中采用不同的分析软件可导致不同的分析结果。“天河二号”可以对限制分析效率的核心软件算法进行并行化处理,从而提高分析效率,并具有适用于不同数据、不同实验设计的最佳分析流程。此外,还加入了高级分析内容,包括功能分析、通路分析以及比较分析,可最大限度地获得数据所携带的研究信息。该平台涵盖基因组分析、转录组分析和表观遗传学分析三大研究领域,利用Linux shell、Java以及C/C++等编程语言将分析过程流程化。在保证分析结果准确性的前提下,还针对流程中部分不适用于超算计算体系的软件进行重编程,利用GPU、MIC或MPI等技术使搭建的流程可以在天河超级计算机上运行。通过以上的整合移植工作,可以提高数据分析质量、分析速度以及分析体验。
目前该平台中整合了以下几种数据分析流程:(1)全基因组重测序:可以针对单个肿瘤患者进行个体基因组的测序,并将测序结果与当前已知的人类参考基因组进行序列比对,从全基因组水平上寻找肿瘤相关的变异。通过构建全基因组重测序分析流程,该平台可以辅助医生针对不同病人开展精准医疗,提高肿瘤的治疗效果。(2)外显子组测序:相比全基因组测序,该分析流程更为简便、经济和高效,其目标区域覆盖度也更高,便于变异检测。通过该平台的分析,研究人员可以以较低的成本检测外显子组中的肿瘤相关变异。(3)转录组测序:研究人员可以通过转录组数据分析流程检测肿瘤样本中的转录异常信号,发现一些直接与肿瘤发生相关转录的调控障碍。转录水平的调控除了与基因组的内在编码信息有关外,还与细胞的表观遗传学特征相关,检测个体表观遗传层面上的差异也是研究肿瘤发生发展的重要手段。(4)DNA甲基化分析及ChIP-seq4数据分析:通过全基因组甲基化测序并使用该平台进行分析,研究人员可以发现肿瘤样本与正常样本的差异基因组甲基化位点,这些鉴定得到的精确差异位点可以指导相应的甲基化抑制治疗。另一方面,该平台通过整合ChIP-seq分析流程,可以对比研究肿瘤病人相对正常人的蛋白质-DNA互作水平差异。利用这些差异信息将能进一步在表观遗传层面上揭示肿瘤的发病机制。
生物医药文献挖掘技术
疾病中牵涉到的通路和基因信息往往以无结构文本的形式出现在海量的文献中,使得研究人员难以进行系统性的研究,也难以对疾病牵涉到的分子层面的细节形成一个全面的理解。文献挖掘技术提供了从文献中获得和提取最相关信息的软件工具,可用于自动获取疾病相关的信息。生物医学文献挖掘面临的一个挑战是相关文献量的快速增长。目前,最大的生物医学文献库PubMed包含超过2000万篇文献摘要及超过百万篇的全文。对如此海量的文献进行快速挖掘,需要依靠先进计算平台的帮助。天河上部署了对MEDLINE5摘要和PMC Open Access6全文进行并行挖掘的流水线,大大提升了文献挖掘的效率。之前的一些相关工作如BioContext7和EVEX8数据库的构建都需要很长的时间(其中BioContext的构建用到了曼彻斯特大学校内的一个小型集群,使用100个并发任务,共耗时3个月)。而在天河上,同样数量文献的挖掘处理可以在半小时内完成。下一步计划是基于天河超级计算机建立起一个生物医学文献大数据平台,既可以提供预处理好的信息,也可以支持自定义挖掘流程的大规模扩展。
医药大数据平台
天津超算:生物医药研发平台和基因组学数据分析平台
生物医药产业的繁荣与发展直接关系到人类的健康水平和生活质量,但其大量、复杂的生物和基因数据对计算机提出了更高的要求,由于实验手段的局限性,迫切需要超级计算机进行大规模的分子动力学模拟。基于“天河一号”开展的生物信息与生物医药研究,主要应用范围包括:人类健康咨询、疾病预防、农业育种、新药研发等,与华大基因天津公司、天津国际生物医药联合研究院、天津生物医药研究院,中科院上海药物研究所、军事医学科学院等开展深入合作。其中,中科院上海药物研究所等单位通过“天河一号”重点加快了艾滋病、癫痫、胰岛素等自主知识产权新药的研发,取得了我国新药研究的重大突破。已建成的基因检测工业云平台为华大基因节省了数千万元的建设资金,实现了信息技术与生物技术的强强联合,完善了基因技术产业化的重要环节,现已在健康咨询、农业育种方面显现效益。
长沙超算:智慧医疗云平台
国家超级计算长沙中心可以为国内外科研院所、创新企业提供分子动力学、蛋白质组学、合成甾体激素、水稻全基因组关联分析、生物医学工程研究等领域的计算分析服务,还建立了湖南省首个健康医疗云、区域卫生信息平台、远程医疗云平台等智慧医疗相关平台,并对外提供服务。湖南省健康医疗云建立了人口健康大数据应用系统,对医疗大数据进行分析研究,提升政府科学决策水平和协同管理效率,为湖南省人口健康事业发展奠定了重要基础。区域卫生信息平台是连接规划区域内各医疗卫生机构跨地域、跨机构之间资源共享和业务协同的一个综合平台,实现了省、市、县、乡、村五级互通,跨地市调阅和共享健康档案。远程医疗云平台已在湖南省儿童医院、耒阳市妇幼保健院进行了应用部署,采用云服务的模式为医院提供远程会诊和院内信息整合。
广州超算: 生物计算与个性化医疗应用服务平台
平台旨在利用广州超算中心强大的计算能力和完善的技术支持帮助用户分析和处理生命科学中的海量数据,加快我国生命科学的研究进展。平台支持横跨分子生物学、合成生物学、细胞生物学、系统生物学、生物信息学、生物医学、基因组学等多个生命科学相关学科的研究,可帮助用户从原子、分子、细胞、组织、器官、个体、群体和生态系统等多个尺度系统地解决生命科学中的各种问题,研究不同空间尺度和时间尺度上生命活动与环境的相互关系,从而揭示生命现象的规律和本质。平台通过软硬件相结合,打造了一个集生物信息分析、药物设计和筛选、医学大数据分析和数据挖掘一体化的一站式服务平台,为公众卫生健康、个性化医疗和相关学术研究提供服务和技术支持。目前平台已部署和适配了一批分子生物学、生物信息学和生物医学相关的分析研究软件,在平台上可进行生物大分子的结构模拟与功能预测、药物设计和筛选、蛋白质结构预测及相互作用网络分析、蛋白质序列分析、基因调控网络功能分析、基因序列分析和比对、SNP变异检测、疾病与基因关联分析、外显子与转录组的研究、医疗健康大数据的分析和信息挖掘等多种分析与研究。在本平台上的分析与研究将涉及多种方法学的使用,如分子动力学、第一性原理、字符串处理、图论、贝叶斯模型、高斯模型、马尔可夫预测模型、数学统计、数值模拟和数据挖掘等。为提高分析和研究效率,有效利用超算中心计算资源,平台所安装的部分软件拥有并行计算能力,可利用多CPU核、多计算节点和MIC加速卡进行计算,缩短分析研究时间。
结语
生物医药大数据具有种类多、维度高、数据量大、增长速度快等特点,包含组学大数据(基因组、代谢组、转录组、蛋白质组等),药物大数据(药物分子和结构、分子动力学、蛋白质、靶标、通路、互作网络、超高通量药物虚拟筛选等),科学文献大数据(临床数据、文献数据等)等。日益增长的数据量和数据精度对计算分析的时效性提出了更高的要求,天河超级计算机强大的计算、互联、存储能力使之成为解决这一问题的强大平台。在天津、长沙、广州等多个城市和国家超算中心也已经成功部署了大量的生物医药大数据分析平台和软件流水线。相信在未来会有越来越多的生物医药大数据问题基于天河等高性能计算和云平台来解决,天河上也会积累越来越多最新的生物医药大数据和相关分析软件。一方面,需要进一步深入挖掘生物医药大数据应用需求和数据特点;另一方面,要结合计算机新型硬件、体系结构、云计算、大数据框架(Hadoop, Spark等)、容器(container)等新的计算技术。希望不断发展的高性能计算机和相关计算技术能持续助力国民健康和生命科学领域的发展。
所有评论仅代表网友意见